机器学习中的标签数据和无标签数据

　　今天在数据人网上看到一篇文章。区分监督学习和无监督学习，监督学习的数据就是有标签数据，无监督学习的数据就是无标签数据。这是我的理解，欢迎指教。

监督式和非监督式机器学习算法

什么是监督式机器学习，它与和非监督式机器学习有什么关联呢？

本文中你将了解到监督式学习,非监督式学习和半监督式学习在阅读本文之后你将知道如下知识：

让我们开始吧。

实际应用中的机器学习在大部分情况下我们都会使用监督式学习。

监督式学习指的是你拥有一个输入变量

我们的目标是足够好的近似映射函数，以便当我们在新的数据$(x)$上可以预测输出变量

这种学习方式就称之为监督式学习，因为算法学习从训练数据集学习的过程可以被看成类似于一名教师在监督学习学习的过程。我们已经知道了正确的答案，而算法不断迭代来对训练数据做出预测同时不断被一名教师修正。当算法达到一个可接受程度的表现时学习过程停止。

监督式学习问题可以进一步被分为回归和分类问题

还有一些种类的问题建立在分类和回归之上，包括推荐问题和时序预测

一些流形的监督式机器学习算法的例子：

回归问题中的线性回归
分类和回归问题中的随机森林
分类问题中的支持向量机

非监督式学习指的是我们只拥有

非监督式学习的目标是对数据中潜在的结构和分布建模，以便对数据作更进一步的学习。

这种学习方式就称为非监督式学习，因为其和监督式学习不同，对于学习并没有确切的答案和学习过程也没有教师监督。算法独自运行以发现和表达数据中的有意思的结构。

非监督式学习问题可以进一步分为聚类问题和关联问题

一些流形的非监督式学习算法的例子：

当我们拥有大部分的输入数据

半监督式学习问题介于监督式和非监督式学习之间。这里有一个好例子如：照片分类，但是只有部分照片带有标签(如，狗、猫和人)，但是大部分照片都没有标签。

许多现实中的机器学习问题都可以归纳为这一类。因为对数据打标签需要专业领域的知识，这是费时费力的。相反无标签的数据和收集和存储起来都是方便和便宜的。

我们可以使用非监督式学习的技术来发现和学习输入变量的结构。

我们也可以使用监督式学习技术对无标签的数据进行标签的预测,把这些数据传递给监督式学习算法作为训练数据，然后使用这个模型在新的数据上进行预测。

从本文你可以了解到监督式,非监督式和半监督式学习的不同之处。你现在直到如下：

关于监督式,非监督式或者半监督式学习，你有什么问题吗？欢迎留下评论，我将竭力解答。
原文链接：Supervised and Unsupervised Machine Learning Algorithms

posted @ 2016-05-10 22:17 空巷子阅读(20385) 评论(1) 收藏举报

刷新页面返回顶部